人工智能最新报告:中国大模型世界第二,但有两个指标全球第一

腾讯科技讯 据国外媒体报道,由华裔女科学家、“人工智能教母”李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)近日发布了《2024年人工智能指数报告》(Artificial Intelligence Index Report 2024)。

关注腾讯科技微信公众号(qqtech),回复“李飞飞”,可获取英文原版PDF报告下载链接。

这份长达501页的报告是斯坦福大学以人为本人工智能研究所发布的人工智能指数报告,追踪了2023年全球人工智能的发展趋势。根据官方的介绍,该报告是斯坦福大学以人为本人工智能研究所迄今为止发布的最全面的报告,出现在人工智能已对人类社会产生影响的重要时刻。今年,该研究所扩大了研究范围,更广泛地涵盖了基本趋势,如人工智能的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态。

斯坦福大学HAI介绍称,人工智能指数报告跟踪、整理、提取和可视化与人工智能相关的数据。该研究所的使命是提供不带偏见的、经过严格审查的、来源广泛的数据,以便政策制定者、研究人员、高管、记者和公众对复杂的人工智能领域有更深入细致的了解。人工智能指数是全球公认的最可信和最权威的人工智能数据和见解来源之一。

与往年不同,今年的版本在内容、规模和范围上都超过往年,反映出人工智能在人类日常生活中日益增长的重要性。新报告揭示了2023年人工智能行业的十大主要趋势:

十大主要趋势

  • 1 人工智能在某些任务上胜过人类,但并非在所有任务上。人工智能已在多项基准测试中超越人类,包括在图像分类、视觉推理和英语理解方面。然而,它在竞赛级数学、视觉常识推理和规划等更复杂的任务上依然落后于人类。
  • 2 产业界继续主导人工智能前沿研究。2023年,产业界产生了51个著名的机器学习模型,而学术界只贡献了15个。2023年,产学合作产生了21个著名模型,创下新高。此外,108个新发布的基础模型来自产业界,28个来自学术界。
  • 3 前沿模型变得更加昂贵。根据《人工智能指数报告》估计,最先进人工智能模型的训练成本已达到了前所未有的水平。例如,OpenAI的GPT-4使用了价值约7800万美元的算力进行训练,而谷歌的Gemini Ultra花费了1.91亿美元的算力。
  • 4 美国领先中国、欧盟和英国,成为顶级人工智能模型的主要开发国家。2023年,61款著名人工智能模型来自美国机构,数量远远超过欧盟的21款和中国的15款。
  • 5 目前严重缺乏对大语言模型负责任的可靠和标准化评估。人工智能指数的新研究表明,负责任的人工智能报道严重缺乏标准化。
  • 6 生成式人工智能投资飙升。尽管去年人工智能私人投资总额有所下降,但对生成式人工智能的投资却大幅增长,从2022年起增长了近八倍,达到252亿美元。生成式人工智能领域的主要参与者,包括OpenAI、Anthropic、Hugging Face和Inflection,均进行了融资。
  • 7 人工智能使工人更有效率,并带来更高质量的工作。2023年,多项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务,并提高他们的产出质量。
  • 8 人工智能崛起推动科学进步的速度愈发迅猛。2022年,人工智能才被正式用于科学发现领域。然而,短短一年后,从优化算法排序效率的AlphaDev到革新材料发现流程的GNoME,我们见证了更为重要的、科学相关人工智能应用的问世。
  • 9 美国的人工智能法规数量呈现出急剧增加的趋势。在过去的一年和五年里,人工智能相关的法规数量显著增加。到2023年,人工智能相关法规从2016年的一项增加到25项。仅去年一年,人工智能相关法规总数就增长了56.3%。
  • 10 在全球范围内,公众对人工智能的潜在影响有了更为深刻的认识,同时伴随着日益增长的紧张情绪。益普索(Ipsos)的最新调查揭示,过去一年中,认为人工智能将在未来三到五年内深刻改变其生活的受访者比例从60%跃升至66%。

以下为《2024 年人工智能指数报告》内容按章节内容概要:

第一章:研究与发展

1、产业继续主导前沿人工智能研究。2023年,人工智能产业开发出51个著名的的机器学习模型,而学术界仅贡献了15个。2023年还有21个产学合作的著名模型,创下新高。

2、更多基础模型和更多开源基础模型。2023年共发布了149款基础款,是2022年发布数量的两倍多。在这些新发布的模型中,65.7%是开源模型,比例高于2022年的44.4%,以及2021年的33.3%。

3、前沿模型变得更加昂贵。根据《人工智能指数报告》估计,最先进人工智能模型的训练成本已达到了前所未有的水平。例如,OpenAI的GPT-4使用了价值约7800万美元的算力进行训练,而谷歌的Gemini Ultra花费了1.91亿美元的算力。

4、美国领先中国、欧盟和英国,成为顶级人工智能模型的主要开发国家。2023年,61款著名人工智能模型来自美国机构,数量远远超过欧盟的21款和中国的15款。

5、人工智能专利数量激增。从2021年到2022年,全球人工智能专利授权量大幅增长了62.7%。自2010年以来,获得授权的人工智能专利数量增长了31倍以上。

图注:2010年至2022年,全球人工智能专利授权量大幅增长了31倍以上。

6、中国在人工智能专利数量上处于遥遥领先的地位。2022年,中国以61.1%的比例领跑全球人工智能专利来源国,大幅超过占比为20.9%的美国。自2010年以来,美国人工智能专利的份额从54.1%一直在持续下降。

图注:中国在人工智能专利数量上处于遥遥领先的地位

7、开源人工智能研究爆炸式增长。自2011年以来,软件项目托管平台GitHub上与人工智能相关的项目数量持续增长,从2011年的845个增长到2023年的约180万个。值得注意的是,仅在2023年,GitHub人工智能项目的数量就大幅增长了59.3%。2023年,GitHub上的人工智能项目获得了更多的Stars(星标,主要用于衡量项目的受欢迎程度),数量从2022年的400万增加到1220万,增加了两倍多。

8、人工智能刊物的数量持续上升。2010年至2022年间,人工智能刊物的总数增加了近两倍,从2010年的约8.8万份增加到2022年的超过24万份。去年的增幅约为1.1%。

第二章:技术表现

图注:2023年发布的著名大模型列表。

1、人工智能在一些任务上击败了人类,但还无法在所有任务中击败人类。

人工智能在几项基准测试中超过了人类的表现,包括图像分类、视觉推理和英语理解等。不过人工智能在更复杂的任务中仍落后于人类,如竞赛级数学、视觉常识推理和规划等。

2、多模态人工智能出现。

传统上,人工智能系统的功能有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步带动了强大的多模态模型的发展,如谷歌的Gemini和OpenAI的GPT-4。这些模型显示出强大的灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。

3、更严格的基准开始出现。在ImageNet、SQuAD和SuperGLUE等既定基准上,人工智能模型已经达到性能饱和,这促使研究人员开发更具挑战性的基准。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench,用于图像生成的HEIM,用于一般推理的MMMU,用于道德推理的MoCa,用于基于智能体行为的AgentBench,以及用于幻觉的HaluEval。

图注:近年来出现的更严格的基准

4、更好的人工智能意味着更好的数据,这意味着……甚至更好的人工智能。Segmentation和Skoltech等新人工智能模型正被用于为图像分割和3D重建等任务生成专门的数据。数据对于人工智能技术改进至关重要。使用人工智能来创建更多数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更困难的任务上。

5、人类评估开始了。随着生成式模型产生高质量的文本、图像等,基准测试已慢慢开始转向纳入Chatbot Arena排行榜等人工评估,而不是ImageNet或SQuAD等计算机化排名。公众对人工智能的情绪正成为追踪人工智能进展的一个越来越重要的考虑因素。

6、大型语言模型让机器人变得更加灵活。语言建模与机器人技术的融合产生了更灵活的机器人系统,如PaLM-E和RT-2。除了改进的机器人功能外,这些模型还可以提问,这标志着机器人朝着能够与现实世界更有效互动的方向迈出了重要一步。

7、对AI智能体的更多技术研究。创造能够在特定环境中自主运行的AI智能体一直是计算机科学家面临的挑战。不过新的研究表明,自动的人工智能智能体的性能正在提高。当前的智能体可以掌握像Minecraft这样的复杂游戏,并有效地处理现实世界的任务,如在线购物等。

8、闭源大语言模型明显优于开源大语言模型。在10个精选的人工智能基准测试中,闭源模型的表现优于开源模型,平均性能优势为24.2%。闭源和开源模型的性能差异对人工智能政策辩论具有重要意义。

第三章:负责任的AI

1、目前严重缺乏对大语言模型负责任的可靠和标准化评估。人工智能指数的新研究表明,负责任的人工智能(Responsible AI)报道严重缺乏标准化。包括OpenAI、谷歌和Anthropic在内的领先开发公司主要根据不同的负责任的人工智能基准测试其模型。这种做法使得系统地比较顶级人工智能模型的风险和局限性的努力变得复杂。

2、政治“深度伪造”( Political deepfakes)很容易产生,也很难发现。政治“深度伪造”已在影响全球各国的选举。最近的研究表明,现有人工智能“深度伪造”方法的准确性各不相同。此外,像CounterCloud这样的新项目展示了人工智能如何轻松地创建和传播虚假内容。

3、研究人员在大语言模型中发现了更复杂的漏洞。此前,人工智能模型红队的大部分努力都集中在测试对人类直观有意义的对抗性提示上。今年,研究人员发现了让大语言模型表现出有害行为的不太明显的策略,比如要求模型无限重复随机单词。

4、全球企业担忧人工智能带来的风险。一项关于负责任的人工智能的全球调查强调,企业最关心的人工智能相关问题包括隐私、数据安全和可靠性。调查显示,各大组织已开始采取措施来降低这些风险。然而在全球范围内,大多数公司迄今为止只降低了一小部分此类风险。

5、大语言模型可以输出受版权保护的内容。多名研究人员表明,流行大语言模型的生成输出可能包含受版权保护的内容,如《纽约时报》的摘录或电影中的场景。这种输出是否构成侵权正成为一个核心的法律问题。

6、人工智能开发人员在透明度方面得分较低,这对研究产生了影响。新引入的基础模型透明度指数表明,人工智能开发人员缺乏透明度,特别是在披露训练数据和方法方面。这种开放性的缺乏阻碍了进一步了解人工智能系统的鲁棒性(指系统或算法在面对各种随机噪声、异常情况和攻击等干扰时的抗干扰能力)和安全性的努力。

7、很难分析极端的人工智能风险。在过去的一年里,人工智能学者和从业者就关注算法歧视等即时模型风险与潜在的长期生存威胁展开了一场激烈的辩论。很难区分哪些主张是有科学依据的,哪些主张应该为决策提供依据。与现实威胁的理论性相比,已存在的短期风险加剧了这一困难。

8、人工智能突发事件的数量继续上升。根据追踪与滥用人工智能相关突发事件的人工智能突发事件数据库,2023年报告了123起突发事件,比2022年增加了32.3个百分点。自2013年以来,人工智能突发事件增长了20多倍。一个值得注意的例子包括人工智能生成的女明星泰勒·斯威夫特(Taylor Swift)的露骨性感照片,这些照片在网上被广泛分享。

图注:近年来人工智能突发事件的数量不断攀升

9、ChatGPT带有政治偏见。研究人员发现,ChatGPT明显偏向美国民主党和英国工党。这一发现引发了人们对该工具影响用户政治观点的可能性的担忧,尤其是考虑到今年是全球大选年。

第四章:经济

1、生成式人工智能投资飙升。尽管去年人工智能私人投资总额有所下降,但对生成式人工智能的投资却大幅增长,从2022年起增长了近八倍,达到252亿美元。生成式人工智能领域的主要参与者,包括OpenAI、Anthropic、Hugging Face和Inflection,均进行了融资。

2、已处于领先地位的美国在人工智能私人投资方面走得更远。2023年,美国的人工智能投资达到672亿美元,比第二大投资国中国高出近8.7倍。而中国和欧盟(包括英国)的私人人工智能投资,分别下降了44.2%和14.1%,自2022年以来,美国在同一时期经历了22.1%的显著增长。

图注:2013年至2023年全球企业在AI领域的投资情况对比图

3、美国和全球的人工智能工作越来越少。2022年,人工智能相关职位占美国所有职位发布的2.0%,这一数字将在2023年降至1.6%。人工智能职位列表的下降归因于领先人工智能公司发布的职位减少以及这些公司内技术职位的比例下降。

图注:2014年至2023年全球人工智能相关招聘职位占所有职位的百分比

4、人工智能降低了成本,增加了收入。麦肯锡的一项新调查显示,42%的受访组织报告部署人工智能技术降低了成本(包括生成式人工智能),59%的组织报告收入实现了增加。与前一年相比,报告成本下降的受访者增加了10个百分点,这表明人工智能正在推动业务效率的大幅提高。

5、人工智能私人投资总额再次下降,而新资助的人工智能公司数量增加。全球私人人工智能投资连续第二年下降,不过跌幅低于2021年和2022年。新投资的人工智能公司数量飙升至1812家,比上一年增长40.6%。

6、人工智能组织采用率上升。麦肯锡在2023年的一份报告显示,目前有55%的组织在至少一个业务部门或职能部门使用人工智能(包括生成式人工智能),高于2022年的50%和2017年的20%。

7、中国主导工业机器人技术。自2013年超过日本成为工业机器人主要安装国以来,中国与最接近的竞争对手之间的差距显著扩大。2013年,中国的安装量占全球总量的20.8%,到2022年这一比例将升至52.4%。

8、机器人安装更加多样化。2017年,协作机器人仅占所有新工业机器人安装的2.8%,到2022年这一数字将攀升至9.9%。同样,2022年除医疗机器人外,所有应用类别的服务机器人安装量都有所上升。这一趋势表明,机器人安装数量不仅整体增加,而且越来越重视部署机器人来扮演面向人类的角色。

9、人工智能使工人更有效率,并带来更高质量的工作。2023年,多项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务,并提高他们的产出质量。这些研究还证明了人工智能在弥合低技能和高技能工人之间的技能差距方面的潜力。尽管如此,其他研究警告说,在没有适当监督的情况下使用人工智能可能会导致性能下降。

10、《财富》500强公司开始更多的谈论人工智能,尤其是生成式人工智能。2023年,《财富》500强公司在394次财报电话会议中提到了人工智能(占所有公司的80%),比2022年的266次提及有了显著增加。自2018年以来,《财富》500强企业财报电话会议中提到人工智能的次数几乎翻了一番。生成式人工智能是最常被提及的主题,在19.7%的所有财报电话会议中都曾出现过。

第五章:科学与医学

1、人工智能崛起推动科学进步的速度愈发迅猛。2022年,人工智能才被正式用于科学发现领域。然而,短短一年后,从优化算法排序效率的AlphaDev到革新材料发现流程的GNoME,我们见证了更为重要的、科学相关人工智能应用的问世。

图注:在优化算法长度时,AlphaDev与人类基准对比

2、人工智能帮助医学取得重大进步。2023年,我们见证了多个具有里程碑意义的医疗系统的推出,其中EVEscape系统显著增强了大流行病的预测能力,而AlphaMissence则协助人工智能进行突变分类。人工智能正日益成为推动医学进步不可或缺的力量。

3、知识渊博的医疗人工智能已悄然到来。在过去几年中,人工智能系统在MedQA基准上的表现令人瞩目,这是评估人工智能临床知识的关键测试。2023年,GPT-4 Medprompt模型在MedQA基准上取得了高达90.2%的准确率,比2022年的最高分提升了22.6%。自2019年该基准推出以来,人工智能在MedQA上的性能几乎实现了两倍的提升。

图注:四种人工智能模型在MultiMedQA子基准测试中的性能表现

4、FDA批准的人工智能相关医疗设备越来越多。2022年,FDA批准了139种与人工智能相关的医疗设备,相较于2021年增长了12.1%。更为引人注目的是,自2012年以来,FDA批准的人工智能相关医疗器械数量已经增长了45倍以上。人工智能越来越多地被用于现实世界的医疗目的。

第六章:教育

1、在美国和加拿大,计算机科学学士学位毕业生的数量正稳步攀升,而计算机科学硕士学位毕业生则保持着相对稳定的态势,博士学位毕业生数量略有增长。尽管过去的十多年里,美国和加拿大计算机科学本科毕业生人数不断攀升,但选择继续深造的研究生数量却呈现出停滞的趋势。自2018年以来,计算机科学硕士和博士毕业生的人数均出现了轻微下滑。

2、人工智能博士向产业界流动的趋势仍在加速。2011年,人工智能博士在产业界(40.9%)和学术界(41.6%)的就业比例大致持平。然而,到2022年,这一比例发生了显著变化,毕业后进入产业界的人工智能博士比例高达70.7%,远高于进入学术界的20.0%。仅在过去一年,流向产业界的人工智能博士所占比例就上升了5.3个百分点,这表明人才从大学流向产业界的趋势正在加剧。

图注:在2010年到2022年间,美国和加拿大AI博士毕业生就业趋势

3、学术人才从产业界向学术界的转移较少。2019年,美国和加拿大新入职的人工智能教师中,有13%来自产业界。然而,到了2021年,这一比例降至11%,至2022年更是进一步下滑至7%。这一趋势表明,高水平人工智能人才从产业界向学术界的迁移正在逐渐减少。

4、美国和加拿大的计算机科学教育正逐渐变得不那么国际化。2022年毕业的国际计算机科学学士、硕士和博士比例均低于2021年。其中,硕士课程中国际学生数量的减少尤为明显。

5、越来越多的美国高中生学习计算机科学课程,但获取信息的问题依然存在。在2022年,美国有20.1万人次参加了AP CS考试。自2007年以来,参加这些考试的学生人数增加了十多倍。然而,最近的证据表明,在较大的高中和郊区的学生在获得计算机科学课程方面更具优势。

图注:美国要求所有高中提供计算机科学基础课程的州

6、在国际范围内,与人工智能相关的学位课程呈现出明显的上升趋势。自2017年以来,与人工智能相关的英语高等教育学位课程的数量增加了两倍,而且在过去五年中始终保持稳步增长。同时,世界各地的大学都在提供更多以人工智能为重点的学位课程。

图注:教育领域用户对ChatGPT的看法

7、英国和德国在欧洲信息学、计算机科学、计算机工程和信息技术研究生培养方面处于领先地位。同时,这两国在培养新的信息学、计算机科学、计算机工程和信息学士、硕士以及博士毕业生方面领先于欧洲。在人均基础上,芬兰在学士和博士毕业生的培养方面领先,而爱尔兰在硕士毕业生培养方面领先。

第七章:政策与治理

1、美国的人工智能法规数量呈现出急剧增加的趋势。在过去的一年和五年里,人工智能相关的法规数量显著增加。到2023年,人工智能相关法规从2016年的一项增加到25项。仅去年一年,人工智能相关法规总数就增长了56.3%。

2、美国和欧盟推进具有里程碑意义的人工智能政策行动。2023年,大西洋两岸的政策制定者提出了推进人工智能监管的实质性建议。欧盟就《人工智能法案》的条款达成了协议,这是2024年颁布的一项具有里程碑意义的立法。与此同时,美国总统拜登签署了一项关于人工智能的行政命令,这是美国最引人注目的人工智能政策举措。

3、人工智能引起了美国决策者的注意。2023年,美国联邦一级的人工智能相关立法显著增加,立法者提出了181项提案,比2022年的88项增加了一倍多。

4、全球范围内,政策制定者们对于人工智能的讨论也愈发热烈。在全球立法程序中提到人工智能的次数几乎翻了一番,从2022年的1247次增加到2023年的2175次。2023年,人工智能在49个国家和地区的立法程序中被提及,每个大洲至少有一个国家在这一年讨论了人工智能相关的政策议题。这凸显了人工智能政策话题在全球的真正影响力。

5、越来越多的监管机构将注意力转向人工智能。发布人工智能法规的美国监管机构从2022年的17个增加到2023年的21个,这一增长表明美国监管机构对于人工智能监管的担忧日益增加。在2023年,一些新的监管机构如交通部、能源部和职业安全与健康管理局也首次颁布了人工智能相关的法规。

第八章:多样性

1、美国和加拿大的计算机科学学士、硕士和博士生的种族越来越多样化。在所有三个教育层次的新毕业生中,尽管白人学生仍占据主要地位,但其他种族学生的比例正在稳步上升,亚裔、西班牙裔、黑人或非裔美国人等群体的比例继续增长。例如,自2011年以来,亚裔计算机科学学士学位毕业生的比例增加了19.8个百分点,西班牙裔学士学位毕业生的比例增加了5.2个百分点。

2、在所有教育水平的欧洲信息学、计算机科学、计算机工程和信息技术毕业生中,性别差距仍然显著。每个接受调查的欧洲国家都报告说,在信息学、计算机科学、计算机工程和信息技术领域的学士、硕士和博士课程中,男性毕业生多于女性。虽然过去十年来大多数国家的性别差距有所缩小,但缩小的速度相对很慢。

图注:2011年到2022年美国和加拿大计算机科学、计算机科学和信息学院学生性别(占总数的百分比)

3、美国K-12计算机科学教育正变得越来越多样化,反映了性别和种族代表性方面的积极变化。女学生参加AP CS考试的比例从2007年的16.8%上升到2022年的30.5%。同样,亚裔、西班牙裔、拉丁裔以及非裔美国学生参加AP CS考试的人数也在逐年增加。

第九章:公众舆论

1、在全球范围内,公众对人工智能的潜在影响有了更为深刻的认识,同时伴随着日益增长的紧张情绪。益普索的最新调查揭示,过去一年中,认为人工智能将在未来三到五年内深刻改变其生活的受访者比例从60%跃升至66%。此外,对人工智能产品和服务感到紧张的公众比例也显著上升,达到52%,较2022年增加了13个百分点。而在美国,皮尤研究中心的报告显示,52%的美国人对人工智能的担忧远超过对其的期待,这一比例相较于2022年的38%有了显著增长。

图注:2023年全球对人工智能对当前工作影响的态度

2、西方国家对人工智能的看法仍然相对保守,但近年来有所改善。2022年,包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的几个西方发达国家对人工智能产品和服务的态度普遍较为悲观。然而,随着时间的推移,这些国家中开始认识到人工智能益处的受访者比例均有所攀升,其中荷兰的转变最为显著。

3、公众对于人工智能的经济影响普遍持悲观态度。益普索的调查数据显示,仅有37%的受访者认为人工智能能够改善他们的工作状况。同时,对于人工智能能否促进经济发展和改善就业市场,公众的乐观程度也相对较低,分别仅有34%和32%的受访者持肯定态度。

图注:在2021年到2023年,美国人对日常生活中增加使用人工智能的感受变化情况

4、在对人工智能的乐观态度上,不同人群之间存在显著差异。特别是在对人工智能改善生计潜力的看法上,年轻一代展现出了更为乐观的态度。例如,高达59%的Z世代受访者认为人工智能将改善娱乐选择,而婴儿潮一代中持此观点的仅占40%。此外,高收入、高教育水平的群体也更倾向于看到人工智能在娱乐、健康和经济等方面的积极影响。

5、ChatGPT已经广为人知并被广泛使用。多伦多大学的一项国际调查显示,63%的受访者知道ChatGPT的存在。在这些人中,大约一半的人每周至少使用一次ChatGPT。

(编译/无忌、金鹿)